频率信息位于纹理之间区分的基础上,因此在不同的对象之间。古典CNN架构将频率学习限制通过固定滤波器大小,缺乏明确控制它的方法。在这里,我们建立了具有高斯衍生基础的结构化接收场滤波器。然而,而不是使用预定的衍生顺序,通常导致基本函数的固定频率响应,我们学习这些。我们表明,通过学习基础的顺序,我们可以准确地学习滤波器的频率,因此适应底层学习任务的最佳频率。我们研究了分数衍生物的良好数学制剂,以在训练期间适应过滤频率。与标准CNN和我们构建的标准CNN和高斯衍生CNN滤波器网络相比,我们的配方导致参数节省和数据效率。
translated by 谷歌翻译
城市规划师越来越多地使用基于深度学习的计算机视觉模型来支持塑造城市环境的决策。这样的模型预测人们如何从例如它的安全或美丽。但是,深度学习模型的黑盒本质阻碍了城市规划师,以了解哪些景观对象有助于特别高质量或低质量的城市空间感知。这项研究调查了如何使用计算机视觉模型来提取有关人们对城市空间的看法的相关政策信息。为此,我们训练了两个广泛使用的计算机视觉架构。卷积神经网络和变压器,并应用Gradcam(一种众所周知的可解释的AI技术),以突出图像区域对模型的预测很重要。使用这些GradCAM可视化,我们手动注释与模型的感知预测相关的对象。结果,我们能够发现以前研究中用于注释的当前对象检测模型中未表示的新对象。此外,我们的方法论结果表明,变压器架构更适合与GARGCAM技术结合使用。代码可在GitHub上找到。
translated by 谷歌翻译
从视频中估算心率可以通过患者护理,人类互动和运动中的应用进行非接触健康监测。现有的工作可以通过面部跟踪在一定程度的运动下稳健地测量心率。但是,在不受约束的设置中,这并不总是可以的,因为脸部可能会被遮住甚至在相机外面。在这里,我们介绍Intensephysio:具有挑战性的视频心率估计数据集,具有逼真的面部阻塞,严重的主题运动和充足的心率变化。为了确保在现实环境中的心率变化,我们记录每个主题约1-2小时。该受试者正在用附着的摄像机进行骑自行车计(以中等强度)锻炼(中度至高强度),没有关于定位或运动的指示。我们有11个主题,大约有20个小时的视频。我们表明,现有的远程照相拍摄方法在这种情况下估计心率很难。此外,我们提出了IBIS-CNN,这是一种使用时空超级像素的新基线,它通过消除了对可见面/面部跟踪的需求来改善现有模型。我们将尽快公开提供代码和数据。
translated by 谷歌翻译
自动对象检测器的本地化质量通常通过联合(IOU)分数进行评估。在这项工作中,我们表明人类对本地化质量有不同的看法。为了评估这一点,我们对70多名参与者进行了调查。结果表明,对于以完全相同的评分而言,人类可能不会认为这些错误是相等的,并且表达了偏好。我们的工作是第一个与人类一起评估IOU的工作,并清楚地表明,仅依靠IOU分数来评估本地化错误可能还不够。
translated by 谷歌翻译
我们介绍了Amstertime:一个具有挑战性的数据集,可在存在严重的域移位的情况下基准视觉位置识别(VPR)。 Amstertime提供了2500张曲式曲目的图像,这些图像匹配了相同的场景,从街景与来自阿姆斯特丹市的历史档案图像数据相匹配。图像对将同一位置与不同的相机,观点和外观捕获。与现有的基准数据集不同,Amstertime直接在GIS导航平台(Mapillary)中众包。我们评估了各种基准,包括在不同相关数据集上预先培训的非学习,监督和自我监督的方法,以进行验证和检索任务。我们的结果将在地标数据集中预先培训的RESNET-101模型的最佳准确性分别验证和检索任务分别为84%和24%。此外,在分类任务中收集了阿姆斯特丹地标子集以进行特征评估。分类标签进一步用于使用Grad-CAM提取视觉解释,以检查深度度量学习模型中学习的类似视觉效果。
translated by 谷歌翻译
我们介绍了一种从单视图检测3D镜面的几何启发深度学习方法。我们通过明确地将3D镜几何形状作为学习作为电感来减少对大规模培训数据的需求。我们提取语义特征,计算帧内像素相关性,并为每个平面构建3D相关体积。相关体积指示输入在各种深度以其镜子类似的程度,允许我们识别给定平面是镜面平面的可能性。随后,我们将相关卷视为用于采样平面的特征描述符,并将其映射到单位半球,其中采样平面的正常呈现。最后,我们设计了多级球面卷曲,以粗糙的方式识别最佳镜面。合成和现实世界数据集的实验显示了3D镜像几何形状的好处,以提高数据效率和推论速度(最多25 FPS)。
translated by 谷歌翻译
The well-documented presence of texture bias in modern convolutional neural networks has led to a plethora of algorithms that promote an emphasis on shape cues, often to support generalization to new domains. Yet, common datasets, benchmarks and general model selection strategies are missing, and there is no agreed, rigorous evaluation protocol. In this paper, we investigate difficulties and limitations when training networks with reduced texture bias. In particular, we also show that proper evaluation and meaningful comparisons between methods are not trivial. We introduce BiasBed, a testbed for texture- and style-biased training, including multiple datasets and a range of existing algorithms. It comes with an extensive evaluation protocol that includes rigorous hypothesis testing to gauge the significance of the results, despite the considerable training instability of some style bias methods. Our extensive experiments, shed new light on the need for careful, statistically founded evaluation protocols for style bias (and beyond). E.g., we find that some algorithms proposed in the literature do not significantly mitigate the impact of style bias at all. With the release of BiasBed, we hope to foster a common understanding of consistent and meaningful comparisons, and consequently faster progress towards learning methods free of texture bias. Code is available at https://github.com/D1noFuzi/BiasBed
translated by 谷歌翻译
机器学习,特别是深度学习方法在许多模式识别和数据处理问题,游戏玩法中都优于人类的能力,现在在科学发现中也起着越来越重要的作用。机器学习在分子科学中的关键应用是通过使用密度函数理论,耦合群或其他量子化学方法获得的电子schr \“ odinger方程的Ab-Initio溶液中的势能表面或力场。我们回顾了一种最新和互补的方法:使用机器学习来辅助从第一原理中直接解决量子化学问题。具体来说,我们专注于使用神经网络ANSATZ功能的量子蒙特卡洛(QMC)方法,以解决电子SCHR \ “ Odinger方程在第一和第二量化中,计算场和激发态,并概括多个核构型。与现有的量子化学方法相比,这些新的深QMC方法具有以相对适度的计算成本生成高度准确的Schr \“ Odinger方程的溶液。
translated by 谷歌翻译
在嘈杂和致密的荧光显微镜数据中跟踪胚胎的所有核是一项具有挑战性的任务。我们建立在最新的核跟踪方法的基础上,该方法结合了弱监督的学习,从一小部分核中心点注释与整数线性程序(ILP)结合了最佳的细胞谱系提取。我们的工作专门解决了秀丽隐杆线虫胚胎记录的以下具有挑战性的特性:(1)与其他生物的基准记录相比,许多细胞分裂以及(2)很容易被误认为是细胞核的极性体。为了应付(1),我们设计并纳入了学习的细胞分裂检测器。为了应付(2),我们采用了学到的极性身体探测器。我们进一步提出了通过结构化的SVM调整自动化的ILP权重,从而减轻了对各自的网格搜索进行乏味的手动设置的需求。我们的方法的表现优于Fluo-N3DH-CE胚胎数据集上细胞跟踪挑战的先前领导者。我们报告了另外两个秀丽隐杆线虫数据集的进一步广泛的定量评估。我们将公开这些数据集作为未来方法开发的扩展基准。我们的结果表明,我们的方法产生了可观的改进,尤其是在分区事件检测的正确性以及完全正确的轨道段的数量和长度方面。代码:https://github.com/funkelab/linajea
translated by 谷歌翻译
许多钥匙孔干预依赖于双手动处理外科手术器械,强迫主要外科医生依靠第二个外科医生作为相机助理。除了过度涉及手术人员的负担外,这可能导致图像稳定性降低,增加任务完成时间,有时由于任务的单调而有时会出现错误。由一组基本说明控制的机器人内窥镜持有者已被提出作为替代方案,但它们的不自然处理可能会增加(SOLO)外科医生的认知负荷,这阻碍了它们的临床验收。如果机器人内窥镜持有者通过语义上丰富的指令与操作外科医生合作的机器人内窥镜持有者,则可以实现手术工作流程的更无缝集成。作为概念证明,本文介绍了一种新颖的系统,为外科医生和机器人内窥镜支架之间的协同相互作用铺平了道路。该拟议的平台允许外科医生执行生理协调和导航任务,而机器人臂自动执行内窥镜定位任务。在我们的系统中,我们提出了一种基于外科刀具分割的新型工具提示定位方法和一种新型的视觉伺服方法,可确保内窥镜摄像机的平滑和适当的运动。我们验证了我们的视觉管道并运行了对该系统的用户学习。通过使用欧洲妇科手术课程验证的腹腔镜运动来确保研究的临床相关性,涉及双部手动协调和导航。我们拟议的系统的成功应用提供了更广泛的临床采用机器人内窥镜架的有希望的起点。
translated by 谷歌翻译